数据呈现丨Pandas可视化综合指南:手把手从零教你绘制数据图表
数据可视化本来是一个非常复杂的过程,但随着Pandas数据帧plot()函数的出现,使得创建可视化图形变得很容易。
在数据帧上进行操作的plot()函数只是matplotlib中plt.plot()函数的一个简单包装 ,可以帮助你在绘图过程中省去那些长长的matplotlib代码。
最近,一位来自印度的小哥以2019年世界幸福指数的数据为例,详细讲述了在Pandas中plot()函数的各种参数设置的小技巧,熟练掌握这些技巧后,你也能绘制出丰富多彩的可视化图表。
导入数据
import pandas as pd
df=pd.read_csv(‘./world-happiness-report-2019.csv’)
df.head(3)
左右滑动查看更多
数据帧中一些列的名称比较冗长,可以重命名使其更加简洁:
df.rename(columns={“Country (region)”: “Country”, “Log of GDPper capita”: “Log_GDP_per_capita”, “Healthy life
expectancy”:”Health_life_expect”},inplace=True)
df.columns
绘制柱状图、散点图等常见图形
从最近简单的柱状图开始,只统计腐败程度、自由度、宽容度、社会支持等几个维度:
%matplotlib tk
df1=df[:5]
df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘bar’)port’],kind = ‘bar’)
左右滑动查看更多
嫌直接写名称太麻烦?没关系,我们也可以用所在列的数字来绘制,比如上述4个列分别为7、6、8、5:
%matplotlib tk
df1=df[:5]
df1.plot(‘Country’,[7,6,8,5],kind = ‘bar’)
在上面的代码中kind = ‘bar’,所以绘制的图形是柱状图,如果我们把参数改成kind = ‘line’,画出的就是线状图。
df1=df[:5]
df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘line’)
左右滑动查看更多
df[:5].plot(x=’Country’,kind=’box’)
左右滑动查看更多
对于散点图,设置kind=’scatter’,绘制出腐败程度与自由度之间的关系,用color=’R’将点定义为红色:
df.plot(x=’Corruption’,y=’Freedom’,kind=’scatter’,color=’R’)
左右滑动查看更多
此外,Pandas中还有一个辅助函数pandas.plotting.table,它创建一个来自数据帧的表格,并将其添加到matplotlib Axes实例中。
from pandas.plotting import table
df1=df[:5]
df1=df.loc[:5,[‘Country (region)’,’Corruption’,’Freedom’,’Generosity’,’Social support’]]
ax=df1.plot(‘Country (region)’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’], kind = ‘bar’, title =’Bar Plot’,legend=None)
table(ax, np.round(df1.describe(), 2),loc=’upper right’)
左右滑动查看更多
坐标轴的设置
取值范围
df1=df[:20]
df1[‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100))
x、y轴刻度
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,15,20]),yticks=([0,50,70,100]), title = ‘xticks’)
左右滑动查看更多
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([w1 for w in range(20)]),yticks=([w10 for w in range(40)]))
左右滑动查看更多
如果我们不希望在坐标轴上看到数字,而是想要设置标签。我们还可以将x轴标签更改为文本标签“低、中、高”这种样式。
ax=df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,20]),yticks=([w*30 for w in range(40)]))
ax.set_xticklabels([‘Low’,’Med’,’High’])
左右滑动查看更多
对数坐标
如果数据的跨度范围非常大,横跨好几个数量级,那么用线性坐标就无法很好地展示数据。这时候我们需要用到对数坐标,设置方法是将logx或者logy的值设置为Ture。
如果我们只想设置x轴为对数坐标,y轴仍保持线性坐标,那么:
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,1000),ylim=(0,100),color=’red’,logx=True)
左右滑动查看更多
其他高阶用法
可以使用stacked参数来绘制带有条形图的堆叠图。在这里,我们绘制堆叠的水平条,stacked设置为True。
将grid参数设置为True,可以给图表加入网格。
有了subplot参数还可以绘制子图,根据需要指定行数和列数以及绘图的数量。
在上面的子图中,我们没有给子图添加标题。当subplot 设置为True 时,在设置一组title的值,即可在列表上方加入标题。
原文链接:
https://kanoki.org/2019/09/16/dataframe-visualization-with-pandas-plot/
https://www.kaggle.com/PromptCloudHQ/world-happiness-report-2019/version/1
►一周热文
软件应用丨38个常用Python库:数值计算、可视化、机器学习等8大领域都有了
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
出处:量子位推荐:简华(何年华)编辑:青酱
欢迎扫描👇二维码添加关注